兰亭会六周年| 龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译
The following article is from HyperAI超神经 Author 神经小兮
司法兰亭会六周年推送之三十。2015年1月3日,推送了第一条消息。
(感谢张法官题字)
(贤超法师在 Techo Park 开发者大会上介绍其研究成果)
作者:神经小姐姐,源自公众号"HyperAI超神经"。感谢授权并开具长期白名单。
坐落在京郊凤凰岭脚下的龙泉寺,称得上全国甚至全球科研实力最强的佛教寺庙。
凭借当年学诚法师的一句「佛教是古老的,但佛教徒是现代的」,推动了龙泉寺里的高僧们搞科研、写代码,将佛学与新技术结合,将项目大众化、国际化。成果不断,屡上热搜,被外界持续关注。
近期龙泉寺的贤超法师,参加了国内某技术大会,分享了使用人工智能对《大藏经》进行整理和校勘的技术实践。
佛系 AI 的诞生:让佛经更易读
佛原生 AI 解决古籍经文痛点
《乾隆版大藏经》的修订参与官员、学者、高僧等 60 余人,
刻字、刷印和装帧等工匠 860 余人,历时六年完成
(图为《乾隆版大藏经》雕版)
2012 年,龙泉寺就着手整理《大藏经》,计划用整整十年的时间完成。因为传统方法对古籍的整理主要有版本校对、校勘、标点,这些步骤能够保证当代读者,也可以尽可能理解晦涩、生僻的经文。
三年后,龙泉寺整理出版了《南山八大部》;再次年,龙泉寺的藏经办公室成立,旨在探索利用人工智能技术,研发出基于深度学习的单字识别引擎;
2017年,龙泉寺成立人工智能与信息技术中心,研发出能识别各种不同大藏经版本的整列识别引擎,并成功的将《六十华严》的大藏经版本进行电子化。
贤超法师目前担任藏经办公室主任,负责《大藏经》的整理工作。
自动标点:OCR +深度学习
现代汉语中,句号、引号、书名号等常用标点近十种,
古汉语中仅有的句号、顿号,经文中也很少出现,难以阅读
RNN+LSTM+ResNet 效果全面提升
团队 2019 年发表论文
《大藏经的汇编:当 AI 遇见佛教》,介绍了其自动标点技术
贤超法师解释道,以往的神经网络最多就是十几层、二十多层的结构,如果层数再多,训练结果就不太容易收敛了。而残差网络动辄几百层,甚至上千层。更深的网络有助于捕捉到更深层的语义信息,这是其大获成功的关键。
团队也曾尝试使用卷积神经网络(CNN),最终效果是,残差网络比卷积神经网络的标点准确率平均高出 20-30% 左右。
AI 自动标点工具效率如何呢?贤超法师用一天时间完成了 2 万字左右规模的古文标点,按照古籍标点每千字 15 元的一般稿酬水平,相当于一天创造了 300 元的经济价值。即使自动标点的准确率只按照 60% 来算,其每天也创造了 180 元的价值。
团队对该自动标点工具也在不断升级
目前最新一代的准确率达到 93.3%
目前,由于贤超法师团队的训练数据多取自佛经,因此其自动标点更适合标点佛教典籍。不过,他表示,未来该技术也将应用在,经史子集等更多领域的古文献整理工作之中,从而让学者们摆脱机械、重复性的劳动。
今后的古籍点校工作模式有希望改为:AI 先断句、加标点;专业学者进行后期校对、修改。
贤超法师团队在 18 年就开源了这一自动标点的在线服务,访问古籍·酷(http://gj.cool)可以试用,还可以申请免费调用 API。
识别、翻译:AI 成为佛经汉化百宝箱
文白对句:对齐 & 翻译
将《大藏经》翻译并单句分离开对齐
有助于人工后期检索与校对
基于深度学习的 OCR,识别古籍文字
基于弱监督学习的精确文字分割
最终,其开发的 OCR 方法能够进行古籍的单字识别、单列识别和半自动的多列识别,能够有效地完成各类古籍的电子化工作。
OCR 软件识别古文将其数字化
科技与佛法:以悲悯为内核的不同外化
佛法与科技,距离并不遥远。
我们也曾在《本世纪,佛祖派机器人来弘扬佛法》一文中,对佛教与科技融合的趋势做出过报道,近年来涌现的贤二机器人、机器观音、智能佛珠等等,早已讲科技深刻和谐地融入进佛法。
科技与佛学的融合中佳作频出,吸引关注
龙泉寺的另一位知名高僧、IT 禅修营的创办者贤信法师,在一次访谈里被提问佛法和科技的关系。
他回答:「科技,是追求物质世界的真。佛法,是内心世界的真。很多在科学上做出探索、在技术上做出探索的人,最开始是抱着想为人类做贡献的心,跟佛教提出最慈悲的追求也是相共的,这就是科技与佛法的共同点。」
(拍照:朱桐辉)